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摘 ”要 认 知 建 模 近 年 来 在 科学 心理 学 获得 广泛 应 用 ， 而 模型 比较 是 认 知 建 模 中 关键 的 一 
环 : 研究 者 需要 通过 模型 比较 来 选择 出 最 优 模 型 ， 才 能 进行 后 续 的 假设 检验 或 潜 变 量 推断 。 
模型 比较 不 仅 要 考虑 模型 对 数据 的 拟 合 〈 平 衡 过 拟 合 与 欠 拟 合 )， 也 需要 考虑 参数 数据 和 数 
学 形式 的 复杂 度 。 然 而 ， 模 型 比较 指标 众多 ， 纷 繁复 杂 。 将 认 知 建 模 常用 的 模型 比较 的 指 
标 分 为 三 大 类 ， 并 介绍 了 其 计算 方法 及 优 劣 ， 包 括 拟 合 优 度 指 标 〈 包 括 平 均 平方 误差 、 决 
定 系数 、RUC 曲线 等 )、 基 于 交叉 验证 的 指标 〈 包 括 AIC. DIC 等 ) 和 基于 边际 似 然 的 指 
标 。 结 合 正 交 Go /No-Go 范式 下 的 数据 ， 展 示 各 指标 在 R 语言 中 如 何 实现 。 在 此 基础 上 ， 
探讨 各 指标 的 适用 情境 ， 介 绍 模型 平均 等 模型 比较 的 新 思路 。 
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最 近 的 二 十 年 来 ， 基 于 计算 模型 (Computational models) 对 行为 数据 进行 认 知 建 模 
(Cognitive modeling) 的 研究 越 来 越 多 受到 研究 者 的 关注 。 例 如 ， 在 感知 觉 决策 (Perceptual 


decision-making) 领 域 中 的 贝 叶 斯 感知 觉 模 型 (Bayesian perception model)(Kording & Wolpert, 


2006) 和 漂移 扩散 模型 (Drift diffusion model)(Forstmann et al., 


2016; Ratcliff et al., 2016) 等 在 认 


知 神经 科学 得 到 了 广泛 的 应 用 。 类 似 的 ， 强 化 学 习 模 型 (Reinforcement learning model) 在 价 


值 决策 (Value-based decision-making) 研 究 中 日 益 成 为 主流 ， 


其 通过 模型 估计 出 的 隐 变 量 “ 预 


期 误差 (Prediction erron” 可 以 有 效 地 预测 学 习 过 程 中 多 巴 胺 神经 元 (dopaminergic neuron) 的 活 


动 (Schultz et al., 1997; Steinberg et al., 2013)。 计 算 模 型 也 是 计算 精神 病 学 (Computational 


psychiatry) 这 一 新 兴 交 叉 领 域 的 基础 (Geng et al., 2022; Huys et al., 2016; Montague et al., 2012; 


区 健 新 , 2020)， 增 进 理解 精神 疾病 人 群 的 认 知 加 工 上 的 缺陷 以 提高 对 精神 疾病 诊断 和 分 类 


的 准确 度 ， 提 供 精 准 治 疗 (Pedersen et al., 2021). 


认 知 模型 的 步骤 大 致 包括 模拟 数据 (Simulation)、 参 数 估 计 (Parameter estimation)、 模 型 


比较 (Model comparison) 4I ha 4 = HE Wi (Latent variable inference)(Wilson & Collins, 2019) 等 步 


又。 有 具体 而 言 ， 研 究 者 根据 不 同 理论 提出 相应 的 计算 模型 进行 模拟 ， 并 设计 实验 收集 数据 ， 


使 用 各 个 计算 模型 拟 合 数 据 ， 通 过 模型 比较 来 选 出 最 优 模 2 
析 数 据 ， 将 模型 的 中 的 隐 变 量 与 神经 数据 结合 进行 推断 。 


型 ， 最 后 根据 最 优 模型 进一步 分 


模型 比较 是 认 知 建 模 里 至 关 重 要 的 一 环 ， 它 不 仪 在 认 知 建 模 中 使 用 ， 也 是 各 种 涉及 到 
计算 模型 的 场景 中 必 不 可 少 的 步 又 。 然 而 ， 心 理学 / 认 知 科学 等 领域 研究 者 对 于 模型 比较 的 
过 程 较 为 陌生 ， 面 对 种 类 繁多 的 模型 比较 指标 时 ， 和 常 感到 困惑 。 此 外 ， 当 前 文献 中 也 缺乏 


对 模型 比较 的 诸多 方法 进行 系统 梳理 。 有 鉴于 此 ， 本 文 梳理 模型 比较 的 原则 和 各 个 方法 ， 


的 统计 模型 ， 例 如 分 层 线性 回归 、 结 构 方程 模型 等 等 。 


帮助 读者 理解 当前 模型 比较 背后 的 原理 和 适用 情境 ， 推 动 更 好 地 运用 认 知 建 模 。 虽 然 本 文 
的 重点 放 在 实验 心理 学 里 的 认 知 建 模 当 中 ， 但 是 介绍 的 指标 也 可 以 应 用 于 其 他 心理 学 常见 


我 们 将 首先 介绍 模型 比较 的 基本 原则 ， 随 后 结合 案例 系统 地 介绍 常见 模型 比较 指标 的 


1 模型 比较 的 基本 原则 


原理 和 优 缺 点 ， 最 后 ， 从 实际 应 用 的 角度 ， 总 结 各 个 指标 的 优 务 和 使 用 注意 事项 。 


对 于 研究 者 而 言 ， 一 个 好 的 模型 必须 要 具备 如 下 两 点 特质 。 第 一 ， 它 能 够 很 好 地 解释 
或 者 拟 合 当前 样本 数据 的 模型 。 第 二 ， 模 型 要 具有 汉化 能 力 ， 即 能 够 对 于 当前 数据 之 外 的 


1 


数据 同样 提供 


但 无 法 解释 样 


较 好 的 解释 ( 即 


研究 者 通常 使 


模型 的 泛 化 


2u 
H5 


error)。 偏 差 是 模型 预测 和 真实 数据 


的 变化 程度 。 模 型 难以 同时 达到 小 的 1 


预测 能 力 )。 如 果 某 个 模 如 
可 认为 这 个 模型 是 欠 拟 合 的 (Underfitting)。 如 果 某 个 模 3 
本 外 的 数据 时 ， 
] 泛 化 误差 (Generalization error)， 即 模型 预测 和 真实 数据 的 差异 来 衡量 
。 泛 化 误差 可 以 被 分 为 方差 (Variance)、 偏 差 (Bias) 和 误差 项 (Irreducible 


型 无 法 准 


确 地 


解释 当前 样本 数据 ， 则 


= 


模型 虽然 对 样本 数 


四 拟 合 很 好 (此 时 的 


测 极为 不 稳定 (方差 很 大 )。 


差 则 会 增 大 ， 这 被 称 作 偏差 -方差 权衡 (Bias-variance trade-off) MAKERE RME 
差 大 的 模型 则 过 拟 合 (Friedman et al., 2001)。 选 择 模型 是 一 个 权衡 模型 
使 得 模型 的 泛 化 误差 最 小 的 过 程 。 

虽然 模型 的 复杂 度 对 其 泛 化 能 力 有 着 重要 作用 ， 但 其 也 
向 模型 复杂 度 的 因素 。 第 


and Pitt (1997) 总 


结 三 种 影 


的 参数 越 多 


Ra 


第 三 是 模型 的 参数 空 


条 度 越 高 。 第 二 是 模型 的 数学 


间 的 差异 ， 方差 表示 


EC. 。 例 如 ， 


x 间 范围 。 


味 着 模型 更 复杂 。 


根据 模型 比较 指标 关注 点 和 原理 


(Goodness of fit), 
本 数据 的 拟 合 程度 。 


更 大 的 参数 空 


x [h] yis 


的 差异 ， 可 将 它们 分 


这 一 类 指标 并 没有 考虑 模型 的 复杂 度 ， 


第 二 类 是 交叉 验证 (Cross validatiom 以 及 近似 交叉 验证 的 指标 ， 


局 差 和 方差 ， 概 因 样 
局 差 很 小 )， 却 会 将 过 多 噪音 考虑 在 内 ， 
内 此 ， 随 着 模型 的 复杂 度 的 增 大 ， 模 型 的 偏差 


型 能 够 非常 好 地 解释 当前 样本 数据 


则 认为 这 个 模型 过 拟 合 的 (Overfitting)(Friedman et al., 2001)。 


模型 在 不 同 ; 


| 练 数据 上 预测 结果 


本 数据 ， 


存在 噪音 ， 


复杂 的 


令 模 型 的 预 


过 于 


pa AR 


逐渐 减 小 ， 


非 线性 


IERE 


， 而 方 


4 的 偏差 和 方差 ， 从 而 


受到 诸多 因素 的 影响 。Myung 
是 模型 的 参数 数量 。 
的 模型 要 比 线性 模型 更 复 
立 围 说 明 模 型 拥有 更 多 的 自由 度 ， 也 意 


一 般 情 况 下 模型 


为 三 类 。 第 一 类 为 模型 拟 合 优 度 


只 是 单纯 地 衡量 模型 对 于 当前 样 


这 类 指 


标 关 注 于 模型 的 泛 化 能 力 (Generalization ability)， 即 基于 当前 样本 数据 拟 合 后 的 模型 对 于 样 


本 外 数据 预测 准 


PCOlMD)， 其 中 y 表 示 观 测 数据 ， M 表 示 模 型 。 
后 二 者 都 具有 在 复杂 度 和 拟 合 优 度 之 间 进 行 权 衡 的 特质 。 


的 “真实 模型 ”。 


角度 (Out of sample prediction accuracy)。 第 三 类 是 基于 边际 似 然 的 指标 1 


边际 似 然 着 重 于 选择 出 候选 模型 里 可 能 存在 


不 同 的 模型 比较 


指标 各 有 其 优 缺 点 ， 不 存在 某 一 个 指标 全 面 优 于 他 者 。 因 此 ， 研 究 者 需要 根据 实际 情况 选 
这 三 大 类 指标 。 


择 合适 的 指标 。 


2 示例 数据 


以 下 将 通过 


Æ Urn 


统计 中 ， 边 际 似 然 (Marginal likelihood) 也 称 为 称 模型 证 
2 


个 数据 作为 示例 ， 


A lr 


据 (Model evidence). 


本 文 将 结合 正 交 Go /No Go 范式 的 示例 实验 来 介绍 各 模型 指标 的 计算 方法 及 特点 
(Cavanagh et al., 2013; Dorfman & Gershman, 2019; Guitart-Masip et al., 2012)。 示 例 所 用 数据 
为 使 用 下 文 介绍 的 认 知 模型 模拟 产生 。 模 拟 数据 和 后 续 模 型 比较 指标 的 计算 使 用 了 R 语言 ， 
具体 代码 见 在 线材 料 :  https;//github.com/zaizibai/model comparison. 

IEZ Go/No Go 范式 常 被 用 于 研究 巴 浦 洛 夫 学 习 和 工具 性 学 习 之 间 的 关系 。 该 范式 是 
2x 2 的 被 试 内 实验 设计 ， 其 中 第 一 个 变量 是 反应 刺激 : Go 和 No Go; 第 二 个 变量 是 行 关 
反应 后 的 反馈 类 型 : 获得 奖励 和 避免 惩罚 。 反 应 刺激 和 反馈 类 型 两 个 条 件 结 合 起 来 共 形 成 
四 种 实验 条 件 (在 该 范式 中 被 称 作 提示 符号 cue): Go- 获 得 奖赏 、Go- 避 人 免 惩罚 ，No Go- 获 得 
奖赏 ，No Go- 避 人 免 惩罚 。 值 得 注意 的 是 ， 每 个 条 件 下 的 正 负 反馈 都 是 概率 的 。 例 如 在 “Go- 
避免 惩罚 ”条 件 下 ， 正 确 反 应 ( 即 Go) 有 80% 概率 避免 惩罚 ， 但 仍 有 20% 概 率 被 惩罚 ， 而 错 
误 反 应 〈 即 No-Go) MA 80% 概 率 被 惩罚 ，20% 概 率 避 免 惩 罚 。 实 验 开始 时 ， 被 试 并 不 知 
道 每 类 条 件 下 正确 的 反应 ， 需 要 根据 反馈 不 断 地 来 学 习 。 根 据 学 习 理论 ， 在 该 范式 里 当 反 
馈 是 获得 奖赏 时 ， 人 们 易 有 Go RM: 当 反 馈 是 避免 惩罚 时 ， 则 更 容易 产生 No Go 反应 
(Dayan et al., 2006)。 

研究 者 通常 使 用 简单 的 强化 学 习 模型 对 该 范式 下 的 数据 进行 建 模 。 该 模型 认为 人 类 决 
策 受 两 种 学 习 因素 影响 : 巴 浦 洛 夫 学 习 和 工具 性 学 习 。 工 具 性 学 习 源 自 斯 金 纳 的 工具 性 学 
习 理 论 ， 是 刺激 -反应 -结果 (Stimulus-Response-Outcome, SRO) 的 联结 ， 而 巴 浦 洛 夫 学 习 则 是 
刺激 -结果 的 联结 ， 与 反应 无 天。 具体 而 言 ， 选 择 Go 或 No Go 反应 的 决策 权重 的 公式 如 下 : 

w=b+Q+nxV (1) 
b 代 表 个 体 对 Go 或 No Go 反应 的 天 然 的 偏好 ，Q@ 是 工具 性 学 习 的 决策 变量 ， 而 
V 则 是 巴 浦 洛 夫 效 应 的 决策 变量 ，K 是 它 的 度量 参数 。 关 于 该 模型 的 具体 细节 ， 可 以 详 见 
Betts et al. (2020) 或 Swart et al. (2017)。 

本 文中 我 们 将 使 用 结合 了 巴 浦 洛 夫 效 应 和 工具 性 学 习 的 模型 模拟 10 个 被 试 的 数据 ， 并 
拟 合 两 种 模型 ， 包 括 模拟 数据 的 真实 模型 (模型 一 )， 以 及 没有 巴 浦 洛 夫 效 应 而 只 有 工具 性 
学 习 的 模型 (模型 二 )。 具 体 的 拟 合 中 ， 将 使 用 分 层 贝 叶 斯 模型 (Hierarchical Bayesian 
estimation, HBE) 和 最 大 化 后 验 概率 法 (Maximum a posterior estimation, MAP)。 在 接 下 来 的 部 


， 本 文 将 结合 案例 模型 和 数据 ， 有 基体 介绍 一 些 指标 的 计算 方式 。 


of 


S 


0.25 


模型 一 生成 。 


一 一 Goto win reward 


20 3 
Trial 


0 


一 一 No Go to win reward 


一 一 Go to avoid punishment 一 一 No Go to avoid punishment 


图 1. 案例 Trial-by-trial 的 行为 数据 ， 上 


go to win 


1000 ms 


250 - 3500ms 


试 次 数量 的 增 大 ， 个 体 行为 逐渐 变 得 稳定 ， 这 体现 了 工具 性 学 习 的 作用 。 


40 


go to avoid losing no-go to 


岗 了 巴 浦 洛 夫 效应 。 具 体 而 言 ， 个 体 更 易 有 Go 反应 去 获得 奖赏 ， 但 是 却 更 多 地 有 No Go 反应 去 避免 惩罚 。 


win no-go to avoid losing 


EAT 
ITI 750 -1500ms 


2. 案例 的 实验 设计 ， 引 自 Betts etal. (2020)。 单 个 试 次 的 流程 如 下 ， 被 试 首先 会 看 到 一 个 cue, E cue 消失 后 需 进行 Go 或 者 No Gi 
完毕 屏幕 会 呈现 反应 结果 。 在 此 任务 里 ， 被 试 需要 去 主动 学 习 不 同 的 cue 的 正确 反应 ， 以 及 正确 结果 是 避免 惩罚 还 是 获得 奖 


图 中 横 坐 标 是 试 次 数量 ， 纵 坐标 是 选择 Go 反应 的 比例 。 四 种 颜色 代表 了 四 种 cue。 随 着 
而 获得 奖赏 和 避免 惩罚 cue 下 ， 个 体 Go 反应 的 比例 的 不 对 称 性 则 体 


$ 


"S 


3. VATER 


E 


拟 合 优 度 指标 


EIE 


平均 平方 误差 
AIC 


对 数 似 然 函 数 
ROC 曲 线 
后 验 预测 检查 


PSIS-Loo-CV 


BIC 


近似 计算 方法 


Savage-Dickey density ratio 
重要 性 采样 


F 交叉 验证 的 指标 和 基于 边际 似 


三 种 常见 的 模型 比较 指标 ， 分 别 包括 拟 合 优 度 指 标 、 基 了 


然 的 指标 。 


见 


常 


3 WARRE 


模型 的 拟 合 优 度 (Goodness of fb 主要 用 于 衡量 模型 在 实验 数据 上 的 预测 程度 或 拟 合 程 


EH 
H 


度 。 虽 然 拟 合 优 度 
认 知 建 模 中 的 作用 
拟 合 优 度 的 指标 可 


Ei 
H2 


指标 没有 考虑 到 由 于 模型 的 复杂 度 增 大 而 带 来 的 过 拟 合 的 影响 ，{1 
也 不 可 忽视 。 首先， 拟 合 优 度 指 标 可 以 用 于 探究 模型 的 绝对 性 能 ， 其 次 ， 
以 在 模型 的 复杂 度 相 差 不 大 以 及 存在 嵌 套 模型 的 情况 下 被 用 于 比较 各 个 


模型 。 在 认 知 建 模 领域 里 常用 的 拟 合 优 度 指标 包括 如 下 : 平方 误差 (Mean squared error). i 


定 系 数 (Coefficient of determination, r?/pseudo r?). XD AER (Log likelihood function), 


接收 者 操作 特征 
predictive check). 
将 仅 做 文字 介绍 。 
3.1 平均 平方 误差 
平均 平方 误差 


MSD), #7 


曲线 (Receiver operator characteristic, ROC) 和 后 验 预 测 检 = 查 (Posterior 


需要 注意 的 是 ，MSE、7? 不 适用 于 比较 本 示例 数据 中 的 两 个 模型 ， 因 此 


， 简 称 为 MSE(Mean squared error)， 叉 称 均 方 偏差 (Mean squared deviation, 


FE 佑 一 般 线 性 回归 的 常用 指标 ， 其 计算 公式 为 : 


n 
1 
MSE = 2X7 一 分 )? (2) 
{=1 
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EK. ype PPA BG, Dre ALAS POUL. MSE 通常 应 用 于 建 模 数据 是 连续 变量 


的 回归 预测 问题 中 。MSE 并 不 适用 于 如 本 文案 例 一 样 的 分 类 问题 。 


对 MSE 开 根 号 可 得 到 均 方 根 误差 (Root mean square deviation, RMSD); 给 MSE 乘 以 数 
据点 数量 ， 可 得 到 残 差 平方 和 (Residual sum of squares, RSS)。 当 模型 使 用 高 斯 分 布 时 ，RSS 
可 用 于 和 骨 套 模型 的 F 检验 。 骨 套 模型 指 的 是 存在 一 个 完整 模型 和 一 个 简单 模型 。 简 单 模型 
是 完整 模型 的 特例 ， 相 比 于 完整 模型 ， 简 单 模型 缺少 某 个 参数 或 者 该 参数 被 固定 到 一 个 值 。 

五 值 公式 为 : 


RSSReduced-RSSpull 
= Ap 
F= RSSFull (3) 


dF Full 
上 式 中 RSSkequceq 和 RSSpyn 分 别 为 简单 模型 和 完整 模型 的 RSS，Ap 为 二 者 的 自由 参数 
之 差 ，dFpn 为 完整 模型 的 自由 度 (Hair et al., 2010)。 除 此 之 外 ， 高 斯 分 布 的 RSS 还 可 以 在 


计算 AIC 和 BIC 时 替代 对 数 似 然 函数 (Friedman et al., 2001; Lebreton et al., 2019)。 更 多 关于 
AIC 和 BIC 的 内 容 请 分 别 参 考 下 文 4.1 和 3.1 节 。 
3.2 决定 系数 

决定 系数 7? 常 被 用 于 衡量 线性 回归 模型 的 拟 合 优 度 ，r? 的 值 介 于 0 到 1 之 间 ， 反 映 了 
因 变量 的 变异 能 被 自 变量 所 解释 的 占 比 。r? 越 接近 于 1， 模 型 对 数据 的 拟 合 效果 越 好 。 其 
计算 公式 为 : 


Pajan (4) 


TSS(Total sum of squares) 为 总 平方 和 和 ，RSS(Residual sum of squares) 与 为 残 差 平方 和 ， 


他 们 的 计算 公式 为 : 


TSS = Xi - Y (5) 
RSS =) vi- (6) 
与 MSE 一 样 ， 决 定 系数 r? 常 应 用 于 建 模 变量 为 连续 变量 的 回归 预测 问题 ， 并 不 适用 于 
本 文案 例 中 建 模 数据 为 离散 分 布 的 分 类 问题 。 
为 了 让 7? 也 适用 于 离散 分 布 的 情况 ， 研 究 者 提出 使 用 pseudo r?。pseudo 7r? 有 多 种 计 
算 公 式 ， 本 文 以 McFadden (1984) 提 出 的 一 种 为 例 进行 介绍 ， 因 为 它 较 为 符合 Kvilseth (1985) 
提出 的 八 种 决定 系数 应 有 的 性 质 (Menard, 2000)。 


其 公式 : 


Y LLF rut model 
pseudo rž -l-SILES a 
McFadden 2s LL Fyull model 


LLL Fru moder DRE HIIT BUI RZ A; 了 JRFwuamoaet 为 空 模型 ( 空 模型 指 的 是 参 
数 为 1/ 选 项 数量 的 多 项 式 模型 ) 的 对 数 似 然 函数 之 和 (Daw, 2011; McFadden, 1984)。 在 示例 数 
据 中 ， 模 型 一 的 pseudo r? 为 0.814， 模 型 二 的 pseudo 7? 则 是 0.803。 这 说 明 这 两 个 模型 对 
数据 的 绝对 拟 合 程 度 均 良好 ， 但 模型 一 比 模型 二 更 好 。 
3.3 ”对 数 似 然 函数 


对 数 似 然 函数 是 给 定 了 参数 的 情况 下 ， 模 型 预测 当前 数据 的 概率 ， 反 映 模 型 与 实际 数 


据 的 匹配 程度 。 通 常 在 极 大 似 然 法 估计 (Maximal likelihood estimation, MLE) 里 使 用 ， 其 公式 


log L(8ly) = p(y10) (8) 

不 同 任务 的 对 数 似 然 函 数 不 尽 相同 。 当 建 模 数 据 是 选项 数据 时 ， 对 数 似 然 函数 通常 是 
伯 努 利 分 布 或 者 多 项 式 分布 ， 而 建 模 数据 是 反应 时 或 者 肌 电 等 ， 对 数 似 然 函数 则 一 般 为 高 
斯 分 布 (Ballard et al., 2019; Ikink et al., 2019; Li et al., 2011). 

在 认 知 建 模 的 模型 比较 中 ， 对 数 似 然 函数 通常 有 两 种 用 途 。 第 一 ， 使 用 平均 对 数 似 然 
函数 来 探究 模型 绝对 的 表现 (Absolute performance)。 本 文 的 示例 为 二 选项 任务 (Binary choice 
task)， 个 体 随机 选择 的 概率 为 50%， 其 对 数 为 -0.693。 因 此 当 平 均 对 数 似 然 函数 大 于 -0.693 
时 ， 模 型 的 表现 要 优 于 随机 水 平 (Chance level). 

第 二 ， 对 数 似 然 可 用 于 计算 似 然 比 检验 (Likelihood-ratio test)， 来 推断 巾 套 模型 之 间 的 
表现 差异 是 否 显著 。 似 然 比 检验 的 渐 近 分 布 为 卡 方 分 布 ， 其 自由 度 正比 于 两 个 模型 中 自由 
参数 数量 之 差 (Casella & Berger, 2002; Wilks, 1938). 

似 然 比 检验 的 公式 为 : 

LRT = —2 X (log Lreducea — log Lrun) (9) 

HP Lp FE TOE AR BB, Lreaucea DU XE E x ES BA A DIA BL 
体 计算 时 ， 我 们 需要 将 所 有 被 试 的 全 部 试 次 的 似 然 函数 相 加 ， 以 此 计算 LRT， 并 通过 检查 
卡 方 分 布 判断 模型 差异 是 否 显 著 。 在 本 文 的 案例 中 ， 模 型 一 和 模型 二 的 自由 参数 数量 之 差 
为 2， 再 乘 上 被 试 数量 10， 因 此 ， 可 用 自由 度 为 20 的 卡 方 分 布 来 进行 似 然 比 检验 。 模 型 一 
和 模型 二 的 似 然 比 检验 的 p 值 为 1.81e-33 < 0.001， 说 明 二 者 的 拟 合 差异 显著 。 


— 


3.4 ROC 曲线 


ROC 曲线 是 一 种 用 于 评估 二 分 类 模型 的 方法 ， 在 信号 检测 论 有 着 广泛 的 应 用 。ROC 曲 
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2d ^ RTI oP FS BM ELE TAA. sc f YEA TA] J De BLP iti 44 48 (True Positive Rate, TPR) 


Ej BA PEK (False Positive Rate, FPR)Z [AJAY 
为 假 阳 性 率 ， 纵 坐标 为 击 中 率 。 
在 ROC 曲线 里 ，TPR 是 指正 确 分 类 的 了 


关系 (Bishop, 2006)。 在 ROC 曲线 里 ， 其 横 坐 标 


E 例 数 与 所 有 实际 正 例 数 之 比 。FPR 则 是 指 错误 


分 类 为 正 例 的 负 例 数 与 所 有 实际 负 例 数 之 比 。 这 里 的 正 例 即 正确 的 反应 ， 也 即 信号 检测 论 


的 信号 ， 而 负 例 则 为 错误 反应 ， 信 号 检测 论 


中 的 噪音 。 为 了 绘制 ROC 曲线 ， 我 们 需要 变化 


反应 阀 值 ， 计 算 不 同 反应 阔 值 下 的 假 阳 率 和 击 中 率 。 


ROC 曲线 展示 了 在 不 同 反 应 阔 值 下 模型 的 性 能 。 而 AUC(Aera under curve) 则 衡量 了 


ROC 曲线 下 的 面积 。AUC 的 值 介 于 0 和 1 
力 。AUC 为 0.5 时 模型 的 预测 是 随机 的 。 而 


y 


> 间 ， 表 示 分 类 器 在 区 分 正 例 和 负 例 方面 的 能 
AUC 的 值 越 接近 1， 表 示 分 类 器 性 能 越 好 。 一 


般 情 况 下 ， 当 AUC 大 于 0.8 时 ， 我 们 可 以 认为 模型 的 性 能 表现 较 佳 。 在 示例 数据 中 ， 模 型 

一 的 AUC 面积 为 0.956， 模 型 2 的 AUC 面积 为 0.951， 二 者 的 AUC 面积 均 较 大 〈 见 图 4)。 
ROC 曲线 在 正 负 样本 大 小 均衡 时 表现 良好 ， 但 是 当 正 负 样 本 差异 较 大 时 ，ROC 的 结 

误差 极 大 。 当 样本 不 均衡 时 ， 查 准 率 - 查 全 率 曲 线 (Precision-recall curve, PRC) 是 更 适合 的 指 


标 (Davis & Goadrich, 2006)。 并 且 ，ROC | 


| 线 仅 限于 二 分 类 问题 ， 在 多 分 类 问题 时 ， 绘 制 


ROC 曲线 需要 把 多 分 类 问题 简化 为 二 分 类 问题 (一 对 多 比较 或 者 裔 历 所 有 的 两 两 比较 等 


等 )(Allwein et al., 2001)。 


1.001 [Model 
一 1 
一 2 
0.75 
a 
a. 0.501 
= 
0.254 
0.004 
0.00 0.25 0.50 0.75 1.00 
图 4， 案 例 中 模型 1 和 模型 2 的 ROC 曲线 


3.5 后 验 预测 检查 


后 验 预 测 检查 Cposterior predictive check) 38 


通常 并 不 属于 模型 


中 的 一 


4 拟 合 优 度 ， 但 考虑 到 该 方 


法 也 可 以 用 于 衡量 模型 对 于 原始 数据 的 拟 合 程度 ， 因 此 本 文 将 其 视 为 模型 拟 合 优 度 的 指标 


后 验 预 测 检 验 属于 模型 验证 的 方法 (Model validation)， 检 查 了 模型 对 样本 数据 的 重 现 能 


力 (Palminteri et al., 2017; Steingroever et al., 2014; Vandekerckhove et al., 2011)。 其 公式 为 : 


p(yYrep|y, M) = f Prep |8,M)p(Oly, M) de (10) 


其 中 M 是 模型 ，y 是 样本 数据 ，yep 是 模型 重 现 的 样 


Zhang et al., 2020)。 


在 实际 应 用 中 ， 后 验 预 测 检查 的 流程 如 下 : 在 拟 合 


的 参数 代入 到 模型 之 中 ， 生 成 模拟 数据 。 然 后 通过 


来 比较 模型 模拟 的 数据 和 真实 数据 的 差异 ， 


Schoot et al., 2021). 


后 验 预 测 检查 能 避免 只 使 用 模型 比较 指标 时 可 能 的 问题 。 
通过 一 个 模拟 研究 证 明 ， 假 设 有 两 个 模型 A 与 B， 即 使 在 多 数 情 
的 指标 均 优 于 模型 B， 但 是 模型 A 却 有 可 能 无 法 模拟 出 数据 的 总 体 变化 趋势 ， 而 B 模型 却 
可 以 。 因 此 ， 除 过 传统 常见 的 拟 合 优 度 指标 之 外 ， 模 拟 数 据 对 记 
管 后 验 预 测 检查 是 贝 叶 斯 统计 中 的 概念 ， 
对 于 非 贝 叶 斯 参数 估计 的 模型 ， 我 们 只 能 获得 


m 


的 参数 模拟 数据 


~ 


以 评估 模型 的 拟 合 


本 数据 (Gelman, Carlin, et al., 2013; 


合 完 模型 并 得 到 拟 合 参 数 后 ， 将 拟 合 


绘图 或 者 计算 一 


参数 的 点 估 


些 统计 指标 (如 MSE 等 ) 


效果 和 预测 能 力 (van de 


例如 ，Palminteri et al. (2017) 


青 况 下 ， 模 型 A 的 模型 选择 


F 估 模型 来 说 是 至 关 重 要 的 。 


究 中 ， 研 究 人 员 选 择 使 用 后 验 预 测 检查 
可 能 成 为 必 不 可 少 的 步 又 之 一 


(Zhang et al., 2020). 


4 ”交叉 验证 类 的 指标 


但 并 不 代表 它 仅 适用 于 贝 叶 斯 参数 估计 。 
计 ， 但 是 我 们 仍 可 以 使 用 点 估计 
再 将 其 与 真实 数据 进行 对 比 。 虽 然 在 过 去 的 计算 模型 
检查 并 没有 得 到 广泛 应 用 ， 但 在 当今 越 来 越 多 的 
来 评估 模型 。 可 以 预见 ， 在 未 来 的 研究 中 ， 后 验 预 测 检查 有 


I 研究 中 ， 后 验 预测 


交叉 验证 是 机 器 学 习 领 域 中 用 于 检验 模型 对 于 样本 外 数据 的 泛 化 能 力 的 基本 方法 。 然 


而 ， 在 心理 学 领域 中 ， 直 到 最 近 才 开始 重视 这 一 


2023)。 交 叉 验 证 的 流程 包括 ， 首 先 将 数据 集 分 


set); 然后 在 训练 集 上 拟 合 不 同 的 模型 ， 最 后 在 验证 集 : 


方法 (Daniel et al., 2020; Verstynen & Kording, 


为 训练 集 (Training set) 和 验证 集 (Validation 


选择 出 最 优 模型 (Friedman et al., 2001; Geisser & Eddy, 1979)。 
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上 对 比 不 同 模型 的 预测 准确 度 ， 从 而 


交叉 验证 主要 有 三 个 优点 。 第 一 ， 与 许多 建立 在 假设 和 推 


上 的 指标 相 比 ， 交 叉 验 证 


4m 


利用 计算 机 的 算 力 替 代 复 杂 的 推导 ， 使 得 它 极 为 简洁 和 直观 。 第 二 ， 交 叉 验 证 在 权衡 模型 
拟 合 优 度 和 复杂 度 时 自然 地 将 三 种 模型 复杂 度 因素 (参数 数量 、 参 数 空间 范围 和 数学 形式 ) 


考虑 在 内 ， 而 这 是 许多 指标 所 不 具备 的 。 第 三 ， 交 叉 验 证 不 仅 可 以 作为 模型 选择 的 相对 指 


标 ， 还 可 结合 前 文 提 到 的 MSE、AUC 等 统计 指标 ， 评 估 模 型 数据 分 布 的 拟 合 能 力 。 


E: 
NS 


的 交叉 验证 方法 包括 K 折 交 叉 验证 (K-fold cross-validatiom 和 留 一 法 交叉 验证 


(Leave-one-out cross-validation)=§. K 折 交 叉 验 证 把 数据 分 成 久 分， 其 中 K-1 份 数据 作为 训 


A, R 


[si 
c 


余 一 份 数据 作 验 证 集 。 留 一 法 交叉 验证 则 是 K 折 交 叉 验 证 的 特例 ， 它 从 数据 集中 


每 次 取出 一 个 样本 作为 测试 集 ， 剩 余 样本 作为 训练 集 。 例 如 ， 在 N 个 样本 点 的 数据 集 ，N- 


1 个 数据 样本 将 作为 训练 集 ， 而 剩 下 的 一 个 样本 是 验证 集 ， 即 K = 7?。 留 一 法 交叉 验证 需要 


进行 N 次 评估 才能 完成 对 所 有 数据 样本 的 预测 ， 因 此 它 的 计算 量 较 大 。 当 样本 数据 噪音 较 
少 的 情况 下 ， 留 一 法 能 做 到 至 少 与 任意 K 值 的 玉 折 交叉 验证 相同 的 表现 ， 而 当 样本 数据 品 


音 较 多 的 情况 下 ， 留 


法 的 泛 化 误差 则 较 大 (Zhang & Yang, 2015)。 


尽管 交叉 验证 是 机 器 学 习 领 域 最 为 常用 的 验证 模型 泛 化 能 力 的 手段 ， 但 是 交叉 验证 在 


认 知 建 模 领域 里 的 使 用 关 
折 交 叉 验 证 则 面临 着 把 数据 分 为 几 份 的 问题 。 考 虑 到 数据 样本 量 的 限制 以 及 计算 复杂 性 ， 


认 知 建 模 的 研究 者 往往 使 用 信息 准则 的 近似 的 指标 去 代替 交叉 验证 的 指标 。 本 文 在 这 里 介 


F 不 广泛 ， 主 要 原因 在 于 留 一 法 交叉 验证 的 计算 量 往往 较 大 ， 而 K 


MR 


4.] AIC 


四 类 常见 的 指标 ， 分 别 为 AIC. DIC. WAIC 和 PSIS-Loo-CV. 


AIC(Akaike information criterion) 是 最 早 的 模型 比较 指标 之 一 (Akaike, 1974)， 有 着 详实 
的 理论 基础 。 首 先 ，AIC 是 模型 所 预测 的 数据 分 布 与 真实 数据 分 布 的 差异 。 其 次 ，AIC 还 


被 证 明 是 对 样本 外 预测 能 力 (Out-of-sample predictive accuracy) 和 LOO-CV 的 近似 (Stone， 


1977). 


AIC 的 计算 公式 为 : 


AIC = -2xlogL(0|y) + 2x K (11) 


其 中 ，logL(6|y) 是 使 用 极 大 似 然 法 估计 或 者 最 大 化 后 验 概率 估计 求 得 的 最 优 参 数 6 的 


对 数 似 然 函数 值 , 可 以 参考 0 节 ; K 为 参数 数量 ， 


— 


于 对 模型 复杂 度 的 惩罚 。AIC 的 值 越 小 ， 


表明 模型 的 拟 合 效 果 越 好 。 


因为 AIC 在 较 小 的 样本 数据 中 可 能 会 表现 不 佳 (Sugiura, 1978)， 有 研究 者 提出 基于 小 样 
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本 偏差 修正 的 AICe(Hurvich & Tsai, 1989). AICc 的 计算 公式 为 : 


2xKx(K+1) 
n-K-1 


AIC; = -2 x logL(8|y) + 2 x K x (1L) = AIC + (12) 


n 
n-K-1 


其 中 n 是 样本 数量 。AICc 在 样本 量 较 大 时 会 趋 近 AIC。 当 样本 量 较 小 时 ，AICc 对 复杂 
的 模型 的 惩罚 大 于 AIC. Anderson and Burnham (2004) & i 24n/K /-T- 40 时 使 用 AICc， 而 
“Mn/KKF 40 时 ， 使 用 AIC 和 AICc 则 无 太 大 差异 。 在 认 知 建 模 领 域 ， 由 于 行为 实验 中 被 


试 完成 的 试 次 数量 有 限 ，AICc 往往 是 比 AIC 更 合适 的 指标 (Li et al., 2020; Li & Ma, 2021; 


ju 


Suzuki et al., 2012). 

对 于 AIC 的 差异 在 多 大 时 才能 证 明 一 个 模型 优 于 他 者 的 问题 ，Burnham and Anderson 
(2004) 的 建议 是 ， 当 两 个 模型 的 AIC 之 差 绝对 值 小 于 2 时 ， 两 个 模型 之 间 几 乎 无 差异 ; 该 值 
在 4 到 7 之 间 时 ， 存 在 较 少 的 证 据 支持 AIC 值 更 小 的 模型 ， 该 值 大 于 10 时 ， 则 有 充足 的 证 
据 认 为 AIC 小 的 模型 是 最 优 模 型 。 此 外 ，AIC 渐进 于 卡 方 分 布 (Anderson & Burnham, 2004), 
因此 ， 研 究 者 可 以 使 用 卡 方 检 验 对 比 不 同 模型 的 AC 值 是 否 存 在 显著 差异 。 

AIC 的 另 一 个 作用 在 于 它 可 以 转换 成 模型 概率 ， 得 到 所 谓 的 亦 池 权重 (Akaike 
weight)(Wagenmakers & Farrell, 2004). 

假设 有 N 个 模型 ，! 第 i 个 模型 的 赤 池 权重 计算 公式 如 下 : 


AAICy, = 41Cw — minAIC (13) 


exp(—0.5 x AAICy,) 
Wm; = TN 
XN exp(—0.5 x AAI Cu, ) 
Anderson and Burnham (2004) 认为 赤 池 权重 是 对 下 文 介绍 的 后 验 模型 概率 (Posterior 


model probability, PMP) p(Mi|y) 的 近似 ， 代 表 在 给 定 样 本 数据 的 情况 下 ， 模 型 被 选择 成 为 候 
选 模型 中 最 优 模 型 的 概率 。 

AIC 在 认 知 建 模 中 的 应 用 格外 广泛 ， 但 是 它 也 具有 一 些 缺 陷 。 第 一 ， 作 为 对 样本 外 预 
测 能 力 的 近似 ，AIC 的 精确 度 不 如 后 续 将 介绍 的 WAIC 和 PSIS-Loo-CV 等 指标 。 其 次 ，AIC 
在 推导 过 程 中 使 用 插入 预测 (Plug in prediction) 概 率 p (yop16) 评 估 模 型 在 样本 内 的 预测 准确 
度 ， 而 不 是 对 完整 的 预测 分 布 进行 评估 ， 导 致 对 样本 外 数据 的 预测 有 一 定 的 偏差 。 最 后 ， 
AIC 衡量 模型 复杂 度 时 只 考虑 了 参数 数量 ， 忽 略 了 Myung and Pitt (1997) 总 结 的 影响 模型 复 


杂 度 的 男 两 个 因素 。 


(14) 


4.2 DIC 


DIC(Deviance information criterion) 是 最 常见 的 贝 叶 斯 统计 的 模型 选择 指标 之 一 ， 其 理 


论 基于 贝 叶 斯 模型 样本 外 预测 能 力 (Expected log pointwise predictive density for a new dataset, 
11 


elpd), DIC 是 对 elpd 的 近似 ， 因 此 DIC 也 只 适用 于 贝 叶 斯 参数 估计 的 模型 。 


DIC 通常 被 认为 是 贝 叶 斯 参数 估计 版 的 AIC， 但 是 与 AIC 不 同 的 是 DIC 仅 适 用 于 基于 


MCMC(Markov chain Monte Carlo) 采 样 估计 的 模型 (Spiegelhalter et al., 2002). 
DIC 的 计算 公式 为 DIC = D(8) -2xpp. DIC 用 模型 分 布 与 真实 模型 分 布 的 偏差 
(Deviance) 来 衡量 模型 的 性 能 。 偏 差 的 公式 为 : 
D(0) = —2 x log L(y|0) (15) 


DIC 的 公式 的 第 一 项 是 偏差 的 后 验 均值 ， 是 模型 拟 合 的 好 坏 代表 ， 其 计算 公式 为 : 


D(@) = -2 x (Z$.1 log L(y18s)) (16) 


其 中 5 是 MCMC 的 采样 数 。DIC 公式 的 第 二 项 pp 被 称 作 有 效 参 数 ， 起 到 了 对 更 为 复杂 
的 模型 的 惩罚 作用 。 其 计算 公式 为 : 


pp = D(8) — D(0) (17) 
D(@) = —2 xlogL(y|8) (18) 
Es EXSA X, Gelman, Carlin, et al. (2013) 也 提出 了 用 偏差 的 方差 当 作 有 效 参数 的 方法 ， 
其 公式 为 


pp = 0.5 x Var(log L(y|0)) (19) 
与 AIC 一 样 ，DIC 值 越 小 的 模型 拟 合 的 越 好 。 当 我 们 把 DIC 除 以 -2， 即 可 得 到 DIC 对 
elpd 的 近似 。 与 AIC 公式 中 的 2K(K 为 参数 数量 ) 类 似 的 是 ，DIC 中 的 pp 也 起 到 了 对 更 为 复杂 
的 模型 的 惩罚 作用 。 不 同 的 是 ，DIC 里 的 pp 不 仅 考虑 了 模型 参数 数量 ， 同 时 还 对 Myung 
and Pitt (1997) 总 结 的 其 他 模型 复杂 度 的 因素 很 敏感 。 因 为 DIC 的 这 一 特性 ， 它 时 常 能 带 给 
研究 者 更 多 的 理解 。 
model) 同 属于 对 反应 时 建 模 的 序列 抽样 模型 (Brown & Heathcote, 2008). LBA 通常 被 认为 是 
DDM 的 简化 版 ， 为 验证 这 二 者 谁 更 复杂 ，Donkin 等 人 使 用 DIC 对 二 者 进行 了 对 比 (Donkin 
尽管 LBA 模型 的 参数 数量 比 漂移 扩散 模型 更 少 ， 但 是 LBA 模型 
DIC 指标 中 pp 更 大 ， 这 表明 LBA 模型 可 能 并 没有 简化 DDM. 

首先 ， 贝 叶 斯 参数 估计 的 先 验 为 有 信息 且 合 适 的 先 验 时 ， 能 降低 模型 过 拟 合 的 程度 。 

相 较 于 频率 主义 统计 ， 贝 叶 斯 参数 估计 更 适合 构建 分 层 模型 ， 可 以 同时 对 所 有 被 试 的 数据 
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Jn, LBA(Linear ballistic accumulator) 79 E; DDM(Drift-diffussion 


et al., 2009). RRI, 


进行 拟 合 ， 使 得 模型 拟 合 的 结果 更 少 出 现 极 端 值 (Ahn et al., 2017; Gelman, Carlin, et al., 2013). 


其 次 ，DIC 对 样本 外 预测 能 力 的 近似 比 AIC 更 精确 。 最 后 ， 相 较 于 PSIS-Loo-CV rfi zi, DIC 


的 计算 简便 ， 常 用 的 MCMC 软件 如 Winbugs(Ntzoufras, 2011) 和 Jags(Plummer et al., 2016) 均 


pu 
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WE] DIC 的 计算 方法 (Myung & Pitt, 2018). 

DIC 同时 也 有 不 少 的 缺点 。 例 如 DIC 的 表现 受 参数 后 验 分 布 的 形态 以 及 参数 点 估计 的 
稳定 性 的 影响 较 大 。 当 参数 后 验 分 布 的 点 估计 不 能 很 好 地 用 均值 代表 ， 或 者 模型 参数 为 非 
指数 族 分 布 时 ，DIC 的 估计 可 能 存在 偏差 。 例 如 ， 当 参数 后 验 分 布 呈 多 峰 时 DIC 均 容易 小 


T O(Evans et al., 2020; Spiegelhalter et al., 2014). 


4.3 WAIC fH PSIS-Loo-CV 


WAIC(Widely applicable information criterion)( Watanabe, 2010) 和 PSIS-Loo-CV(Pareto 


smoothed importance sampling-leave-one-out cross-validation)( Vehtari et al., 2017) 与 前 面 介绍 的 
DIC 类 似 ， 是 对 elpd 的 近似 ， 且 也 仅 适 用 于 基于 MCMC 采样 的 贝 叶 斯 模型 。 

与 DIC 不 同 ，WAIC 使 用 了 Ipd(Log pointwise predictive density, 也 在 一 些 文章 中 缩写 为 
Ippd) 去 近似 elpd. Ipd 是 模型 在 当前 样本 数据 点 上 模型 的 预测 力 ， 其 计算 公式 为 : 


[pd = YL, log en? (20) 
其 中 ，i 为 各 个 数据 点 ，S 为 MCMC 采样 的 数量 。 通 过 lpd 近似 elpd 时 往往 会 高 估 elpd， 


即 高 估 模 型 的 预测 能 力 。 因 此 ，WAIC 在 计算 elpd 时 引入 了 一 修正 项 Pie， 这 一 项 与 AIC 
里 的 参数 数量 和 DIC 里 的 pp 类 似 ， 都 是 用 于 和 您 罚 模 型 的 复杂 度 。Pwaic 代 表 估计 出 的 参数 的 


有 效 数 量 (estimated effective number of parameters)， 其 计算 公式 为 : 


Pwaic = 9. Varsi(logp(yil0®)) (21) 
i=1 
elpdwarc = ipd — Dwaic (22) 


为 了 使 WAIC 渐进 于 卡 方 分 布 ， 我 们 可 以 将 其 乘 上 -2。 值 得 注意 的 是 ，elpdwaic 越 大 ， 
模型 的 样本 外 预测 能 力 越 好 ， 而 WAIC 越 小 说 明 模 型 拟 合 越 好 。 

与 DIC 相 比 ， 虽 然 WAIC 也 采用 插入 预测 的 方法 来 评估 样本 外 泛 化 能 力 ， 但 是 WAIC 
有 具有 额外 的 多 个 优势 。 第 一 ，WAIC 利用 整个 后 验 分 布 计算 模型 复杂 度 的 惩罚 项 ， 其 结果 


更 稳定 。 第 二 ，WAIC 在 参数 后 验 分 布 为 非 正 态 的 模型 上 的 表现 也 要 优 于 DIC(Myung Pitt, 


贝 叶 斯 留 一 法 交叉 验证 (Bayesian leave-one-out cross-validation) 也 可 以 被 用 于 近似 


其 计算 公式 为 : 


elpdioo = Xi-ilogpGrily-) (23) 
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pGily-) = [ pou) x p(6|yi-.1)d8 


(24) 


其 中 i 是 数据 样本 点 。 基 于 elpdyoo 的 信息 准则 指标 为 Looic(Leave-One-Out Cross- 


Validation Information Criteriom)， 是 elpqwiuo 乘 以 -2。 对 于 留 一 法 交叉 验证 来 说 ， 其 对 模型 复 


杂 度 的 惩罚 项 为 elpd1,。 和 pd 之 间 的 差异 。 


贝 叶 斯 留 一 法 交叉 验证 计算 量 极 大 。 为 了 简便 计算 ，Vehtari et al. (2017) 提 出 了 PSIS- 


Loo-CV 去 近似 完整 的 Loo-CV。PSIS-Loo-CV 使 用 了 MCMC 样本， 大 幅度 降低 了 计算 量 。 


因为 R 语言 中 loo 包 纳 入 了 该 算法 ， 这 使 得 它 被 广泛 应 用 于 实际 研究 中 。 此 外 ，PSIS-Loo- 


CV 提供 了 一 项 模型 诊断 指标 : 幅 累 托 分 布 的 参数 k 值 ， 若 绝 大 多 数 数据 点 的 k 值 大 于 0.7， 


则 说 明 模型 的 设置 可 能 存在 问题 。 


除了 使 用 WAIC 和 PSIS-Loo-CV 进行 模型 比较 外 ，Vehtari et al. (2019) 还 推荐 使 用 结合 


PSIS-Loo-CV 和 集成 学 习 里 的 堆 老 (Stacking) 方 法 (Friedman et al., 2001) 去 计算 每 个 模型 的 权 


会 互相 “分 享 ” 权 重 ， 导 致 二 者 权重 较 低 且 相 近 (Sivula et al., 2020)。 


与 WAIC 比 起 来 ，PSIS-Loo-CV 被 证 明 是 对 elpd 更 好 的 近似 (Vehtari et al., 2016)， 使 得 


PSIS-Loo-CV 能 更 全 面 地 考虑 Myung and Pitt (1997) 提 出 的 三 个 影响 模型 


重 ， 有 具体 细节 可 见 Yao et al. (2018)。 与 赤 池 权重 一 样 ， 堆 县 方法 的 模型 的 权重 可 用 于 模型 
平均 。 值 得 注意 的 一 点 是 ， 当 堆 闭 方法 的 模型 权重 用 于 模型 比较 时 ， 表 现 相似 的 两 个 模型 


复杂 度 的 因素 。 并 


H. Vehtari et al. (2017) 开 发 的 RR 包 loo 降低 了 使 用 门槛 ， 研 究 者 只 需要 输入 MCMC 采样 的 似 


然 函 数 ， 即 可 计算 WAIC 和 PSIS-Loo-CV。 关 于 使 用 WAIC 和 PSIS-Loo-CV 的 具体 建议 ， 


可 以 详 见 Vehtari (2022). 


4.4 不 同 交 叉 验 证 近似 指标 的 总 结 


交叉 验证 类 的 指标 在 认 知 建 模 中 的 使 用 极 广 ， 随 着 近年 来 黑箱 MCMC 软件 的 流行 ， 使 
得 研究 者 能 较为 容易 地 使 用 贝 叶 斯 参数 估计 ， 这 极 大 地 推广 了 DIC. WAIC 和 Loo-CV 的 使 


的 应 用 格外 的 广泛 。 
虽然 上 述 这 些 指标 建立 在 不 同 的 假设 和 近似 方法 的 基础 之 上 ，AIC 


似 然 法 估计 或 者 最 大 后 验 概率 法 拟 合 的 模型 ， 而 DIC、WAIC 和 Loo-CV 则 用 于 MCMC fd 


。 因 为 交叉 验证 类 的 指标 更 容易 确认 复杂 模型 的 为 最 优 模型 ， 这 使 得 它们 在 心理 学 研究 


更 多 地 应 用 在 极 大 


计 的 模型 中 。 但 是 在 一 些 认 知 建 模 的 应 用 里 ， 它 们 的 差异 并 不 明显 。 例 如 ，Evans (2019) 在 


LBA 模型 上 对 比 了 AIC、DIC、 和 WAIC， 虽 然 它们 的 表现 类 似 ， 但 是 


DIC 和 WAIC 的 表 


现 要 略 优 于 AIC。 又 比如 ，Westbrook et al. (2020) 使 用 和 AIC 和 DIC 对 比 了 不 同 的 注意 力 
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DDM(Attentional drift-diffusion model, aDDM)， 二 者 的 结果 几乎 一 致 。 

在 本 文 的 案例 里 ， 我 们 用 最 大 化 后 验 概率 法 的 结果 计算 了 AIC， 并 用 分 层 贝 叶 斯 参数 
估计 的 结果 计算 了 DIC. WAIC 和 PSIS-Loo-CV， 如 图 5。 对 于 贝 叶 斯 模型 比较 指标 ， 根 据 
Vehtari et al. (2017)， 我 们 可 以 对 不 同 模型 进行 Wald 检验 ， 从 而 判断 模型 之 间 是 否 有 显著 的 
差异 。Wald 检验 的 结果 表明 ， 两 模型 的 DIC 存在 显著 差异 ，Dprc = 25.03 > 1.96 X aprc = 
22.85， 其 中 也 表示 模型 2 与 模型 1 在 交叉 验证 指标 上 的 差异 。 而 WAIC 和 PSIS-Loo-CV 的 


表现 几乎 一 致 ， 模 型 之 间 的 差异 也 显著 ， Dwarc/Loo-cv = 22.70 > 1.96 X owarc/Loo-cv = 


21.56. 
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图 5. 不 同 交叉 验证 类 的 近似 指标 对 模型 一 和 模型 二 的 评估 ， 信 息 准则 指标 越 小 代表 模型 拟 合 的 越 好 。 
iE: PSIS-Loo-CV 计算 的 结果 常 记 作 LOOIC (Leave-One-Out Information Criterion). 


5 边际 似 然 


边际 似 然 或 称 作 模型 证 据 则 是 另 一 大 类 的 模型 评估 指标 ， 同 时 也 是 贝 叶 斯 模型 选择 


(Bayesian model selection，BMS) 的 核心 。 贝 叶 斯 参数 估计 的 公式 为 : 


_ _ P(y|9)xp@) 
p(0ly) m [v»(y|8)x»(6)a6 (25) 


但 是 上 式 忽 略 了 模型 M 这 一 项 。 如 果 对 上 式 进 行 修 改 ， 增 加 M ， 即 可 得 : 


_ p(y|0, M)xp(0,m) 
Ply, M) = 156/18, M xp(o)48 


此 时 贝 叶 斯 公式 中 的 分 母 即 为 模型 的 边际 似 然 或 模型 证 据 。 边 际 似 然 计算 的 是 参数 空 
间 范 围 内 模型 对 数据 的 平均 拟 合 (Average fiD， 边 际 似 然 越 大 ， 模 型 对 样本 数据 解释 的 越 好 。 
边际 似 然 可 以 平衡 模型 的 复杂 度 和 拟 合 效果 。 例 如 ， 较 简单 的 模型 可 能 具有 较 低 的 拟 


(26) 
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合 优 度 ， 但 是 却 有 较 高 的 边际 似 然 ， 因 为 它们 的 参数 空间 不 确定 性 小 。 相 反 ， 复 杂 的 模型 
可 能 上 共有 较 高 的 拟 合 优 度 ， 但 是 其 边际 似 然 却 较 小 ， 因 为 它们 在 参数 空间 的 不 确定 性 较 大 


(MacKay, 2003). 


边际 似 然 同 时 考量 了 Myung and Pitt (1997) 总 结 的 三 种 影响 模型 复杂 度 的 因素 ， 如 图 
所 示 。 过 于 简单 的 模型 给 予 观 测 数 据 的 概率 p(M|y) 往 往 很 少 ， 因 此 其 边际 似 然 也 很 小 ; 过 
于 复杂 的 模型 的 数据 分 布 更 广 ， 但 是 它 分 给 当前 观测 数据 的 概率 p(M|y) 也 很 小 ， 由 此 雪 
际 似 然 也 较 小 ; 只 有 当 复 杂 度 适中 时 ， 观 测 数据 对 应 的 边际 似 然 才 会 较 大 。 


an 


ec 


图 6， 边 际 似 然 对 不 同类 模型 的 惩罚 。 横 坐标 为 数据 值 ， 纵 坐标 代表 数据 值 对 应 的 似 然 值 。 


边际 似 然 还 对 贝 叶 斯 参数 拟 合 的 先 验 信息 格外 地 人 敏感。 例如 ， 当 使 用 弱 信 息 的 先 验 分 
布 时 ， 复 杂 模 型 的 边际 似 然 小 于 简单 模型 ， 当 使 用 更 窄 的 、 信 息 更 丰富 的 先 验 分 布 时 ， 复 
杂 模 型 的 边际 似 然 就 有 可 能 大 于 简单 模型 (Farrell & Lewandowsky, 2018). 

边际 似 然 在 实际 的 应 用 中 存在 两 个 主要 问题 。 第 一 ， 先 验 分 布 对 边际 似 然 的 计算 结果 
有 较 大 的 影响 。 当 我 们 的 数据 点 较 多 时 ， 先 验 分 布 对 参数 估计 的 结果 不 恰当 的 先 验 分 布 会 
对 边际 似 然 的 计算 结果 产生 很 大 的 影响 (Boehm et al., 2018)。 对 于 先 验 的 选择 ， 主 观 贝 叶 斯 
方法 认为 应 当 根据 已 有 的 知识 和 信念 选择 先 验 分 布 ， 而 客观 贝 叶 斯 方法 则 试图 排除 先 验 选 
择 的 个 人 因素 ， 更 多 地 使 用 如 先 验 杰 佛 里 斯 默认 先 验 分 布 (Jeffreys default prior distribution) 
等 无 信息 的 先 验 分 布 (Jeffreys, 1998; Vandekerckhove et al., 2015)。 为 了 选择 出 更 合适 的 先 验 
分 布 ， 研 究 者 可 以 使 用 敏感 性 分 析 (Prior sensitivity check)， 变 换 不 同 的 先 验 分 布 检查 其 对 边 
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际 似 然 的 影响 。 


AA — 
第 二 个 问题 是 


， 计 算 边 


行 乘积 积分 。 然 而 只 有 极 少 的 简单 模型 的 边际 似 然 可 以 直接 求解 ， 更 多 模型 的 边际 似 然 是 


无 法 简单 计算 的 。 


5.1 BIC 


际 似 然 需要 对 先 验 分 布 和 模型 的 似 然 函数 在 整个 参数 空间 上 


因此 ， 许 多 近似 方法 和 采样 积分 方法 被 提出 以 用 于 计算 边际 似 然 。 


BIC(Bayesian information criterion)(Schwarz, 1978) 与 AIC 类 似 ， 也 是 为 最 经 典 、 应 用 最 
为 广泛 的 模型 选择 指标 之 一 
的 一 个 特例 (Bishop, 2006)。 当 计算 拉 普 拉 斯 近似 时 ， 假 设 先 验 分 布 为 无 信息 先 验 ， 且 当 数 
据点 n 的 数量 极 多 时 ， 根 据 大 数 定律 ， 拉 普 拉 斯 近似 计算 的 结果 可 以 被 简化 为 BIC。 

BIC 的 计算 公式 为 : 


其 中 ，KIn(nm) 是 BIC H 


o BIC 是 下 文中 拉 普 拉 斯 近似 (Laplace approximation) 边 际 似 然 


BIC = 一 2 X logL(0|y) -Kxln(n) (27) 


对 模型 复杂 度 的 惩罚 项 ，K 是 参数 数量 ，? 是 数据 的 数量 。 可 见 ， 


BIC 不 仅 考虑 了 模型 


! 参 数 数量 对 惩罚 模型 复杂 度 的 影响 ， 也 将 数据 量 作为 惩罚 模型 复杂 度 
的 关键 因素 ，BIC 与 AIC 一 样 ， 其 值 越 小 说 明 模型 拟 合 的 越 好 。 


除 此 之 外 ，BIC 有 根据 样本 矫正 的 SABIC(Sample-adjusted BIC)(Sclove, 1987)， 然 而 
缺乏 理论 依据 ， 应 月 


日 较 少 (Dziak et al., 2020). 


虽然 BIC 是 最 常见 的 模型 选择 指标 (Wilson & Collins, 2019)， 然 而 BIC 仍然 存在 缺点 。 
第 一 ，BIC 对 模型 复杂 度 的 惩罚 只 考虑 了 模型 的 参数 和 样本 数量 ， 并 没有 考虑 到 Myung and 
Pitt (1997) 总 的 另外 两 个 影响 模型 复杂 的 因素 ， 即 参数 空间 范围 和 模型 的 数学 形式 。 第 二 ， 


Md 


Hi i 


虽然 BIC 是 在 贝 叶 斯 理论 


的 框架 下 推导 而 来 ， 但 是 它 并 未 考虑 不 同 先 验 信息 对 结果 的 影响 。 


52 近似 方法 计算 边际 似 然 


本 文 介绍 的 近似 方法 计生 


边际 包括 Savage-Dickey 比 (Savage-Dickey Ratio, SDR)、 拉 普 


拉 斯 近似 (Laplace approximation)， 核 密度 估计 方法 (Kernel density estimation, KDE) 以 及 变 分 


推断 。 与 BIC 相 比 ， 


文 介绍 的 采样 方法 


相 比 ， 


很 多 研究 中 得 到 了 应 用 。 


Savage-Dickey 比 适用 二 


这 些 方法 考虑 了 先 验 分 布 的 影响 ， 但 其 计算 量 并 没有 显著 增 大 ;与 后 


近似 方法 的 误差 更 大 ， 但 其 计算 量 却 远 小 于 采样 方法 ， 使 得 它 在 


在 肉 套 模型 的 模型 比较 中 计算 二 者 的 贝 叶 斯 因子 (Dickey, 1973; 


Dickey, 1976; Wagenmakers et al., 2010)。 假 定 简单 模型 所 缺少 的 参数 为 9 ，Savage-Dickey 比 


Tic EROR DLE 


斯 因 


简化 为 完整 模型 9 等 于 0 时 的 后 验 概率 与 先 验 概率 之 比 。 在 本 
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文 的 案例 中 ， 当 我 们 将 负责 巴 普 洛 夫 效 应 的 两 个 参数 7n 和 b 的 组 水 平 的 均值 参数 固定 为 0 
时 ， 计 算 对 数 贝 叶 斯 因子 为 2.24.. Savage-Dickey 比 适用 于 各 个 参数 的 先 验 分 布 是 相互 独 
立 的 情况 ， 但 当先 验 分 布 是 有 协 方差 矩阵 的 多 维 分 布 时 则 需要 矫正 (Heck, 2019). 

拉 普 拉 斯 近似 主要 应 用 于 使 用 最 大 化 后 验 概率 拟 合 模型 的 情况 ， 其 主旨 在 于 使 用 多 维 
高 斯 分 布 来 近似 参数 的 分 布 ， 并 用 泰勒 展开 避免 积分 问题 。 与 BIC 相 比 ， 拉 普 拉 斯 近似 的 
边际 似 然 考虑 了 先 验 分 布 的 影响 ， 且 其 计算 误差 更 小 。 拉 普 拉 斯 近似 的 计算 边际 似 然 的 公 
式 为 : 


A K 1 
logp(y|M) « log L(6|y) + logp(0|M) 32 — x log 2r — 5 loslH| (28) 


Ahn 23 fto Ue Se THE PRE BEAT PN. RIT TELA AE O LE A RE 
边际 似 然 的 方法 之 一 (Gershman, 2016; Huys et al., 2011; Myung & Pitt, 1997)， 其 关键 步骤 在 
于 计算 海 森 和 矩阵 的 行列 式 ， 但 当 海 森 矩 阵 为 非 正 定 矩 阵 时 ，log | 好 这 一 项 有 可 能 为 非 数值 
(NaN). 

核 密度 估计 方法 则 可 利用 MCMC 采样 得 到 的 参数 后 验 分 布 来 计算 边际 似 然 。 核 密度 估 
计 方 法 使 用 了 非 参 统计 方法 中 的 核 密度 估计 计算 参数 的 后 验 概率 p(6|y) = k(8]6,0). Jb. 
kk 为 密度 核 函数 ， 通 常 为 高 斯 分 布 (Wasserman, 2006)。9 是 MCMC 采样 获得 的 各 个 参数 样本 ， 
而 6 是 MCMC 采样 分 布 的 点 估计 代表 ， 一 般 是 概率 密度 最 高 的 点 。 

在 得 到 了 参数 的 后 验 概率 p(6|y) 后 ， 根 据 贝 叶 斯 公式 ， 我 们 便 可 以 直接 得 到 边际 似 然 : 


p(y|M) = BF. (29) 


核 密 度 估 计 方 法 计算 简便 ， 且 不 受 海 森 矩 阵 的 限制 ， 一 些 模 拟 研究 还 发 现 它 的 表现 要 
比 拉 普 拉 斯 近似 等 方法 更 好 (Bos, 2002). 

变 分 推断 (Varitional inference) 是 除 采样 方法 外 男 一 常见 的 贝 叶 斯 参数 估计 的 方法 。 与 采 
样 方 法 不 同 的 是 ， 变 分 推断 试图 用 变 分 分 布 q(z) 近 似 参 数 后 验 分 布 p(91D)， 从 而 将 贝 叶 斯 
公式 里 的 积分 问题 变换 成 优化 问题 (Bishop, 2006)。 变 分 推断 不 仅仅 在 贝 叶 斯 参数 估计 里 有 
着 许多 应 用 ， 它 还 可 以 被 当 作 理解 认 知 过 程 的 理论 (Friston et al., 2006). 

变 分 推断 的 优化 函数 被 称 作证 据 下 界 ELBO(Evidence Lower Bound) 或 者 负 自 由 能 
(Negative free energy)(Bishop, 2006; Friston et al., 2007)， 是 对 数 边际 似 然 的 下 限 。 最 大 化 
ELBO 时 能 获得 边际 似 然 的 估计 值 ，ELBO 的 公式 为 : 


p(8, y|M) 
q(z) 


ELBO 的 公式 表明 边际 似 然 可 以 被 分 为 两 部 分 ， 第 一 部 分 是 似 然 函数 在 变 分 分 布 上 的 
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ELBO = Eg [log ] = Eg [log p18, M)] + Dk, Ca C2)]p CO] M)) (30) 


期 望 值 ， 代 表 模 型 拟 合 的 好 坏 ; 第 二 部 分 是 变 分 分 布 和 先 验 分 布 的 KL 散 度 ， 代 表 后 验 和 


越 小 (Stephan et al., 2009)。 


先 验 的 差异 。 当 模型 拟 合 程度 越 差 或 者 先 验 分 布 与 后 验 分 布 之 间 的 差异 越 大 时 ， 边 际 似 然 


在 实际 应 用 里 ， 基 于 Matlab 的 变 分 推断 的 工具 包 VBA 在 拟 合 模型 完毕 时 可 以 返回 优 


化 ELBO(Daunizeau etal.,2014)。 此 外 ， 基 于 Stan 拟 合 的 模型 


4 也 会 返回 未 标准 化 的 后 验 分 布 


概率 和 变 分 分 布 概率 ， 可 以 用 于 计算 ELBO。 变 分 推断 方法 问题 在 于 它 得 到 的 是 边际 似 然 
的 下 限 ， 少 有 理论 研究 关注 ELBO 对 边际 似 然 的 近似 误差 (Blei et al., 2017)。 


5.3 采样 方法 计算 的 边际 似 然 


蒙特 卡 洛 采 样 方法 是 一 种 常见 的 统计 模拟 的 方法 ， 当 一 


个 积分 公式 难以 直接 求解 时 ， 


我 们 可 以 通过 不 断 地 数值 采样 ， 带 入 到 公式 中 计算 ， 逐 步 盟 近 积分 的 结果 。 因 为 复杂 模型 
的 边际 似 然 的 积分 无 法 通过 解析 解 求解 ， 这 使 得 许多 蒙特 卡 洛 采样 算法 被 应 用 到 计算 边际 


似 然 中 。 


采样 方法 种 类 繁多 ， 包 括 热 力学 积分 (Thermodynamic integration)， 序 列 蒙特 卡 洛 采样 


(Sequential monte carlo sampler SMC) 和 粒子 MCMC 的 方法 。 


然而 ， 由 于 缺少 易 用 的 软件 ， 


muy 


这 些 方法 的 应 用 受到 了 限制 (Doucet & Johansen, 2009; Murphy, 2023)。 相 比 之 下 ， 重 要 性 采 


FÉ(Gamerman & Lopes, 2006; Hammersley, 2013) 和 桥 采 样 (Bridge sampling)(Gronau et al., 2017; 


Meng & Wong, 1996)， 有 着 易 用 的 软件 或 其 本 喘 计算 简便 ， 广 泛 应 用 于 心理 学 研究 中 。 


重要 性 采样 属于 蒙特 卡 洛 方法 的 一 种 ， 它 的 关键 在 于 引入 重要 性 采样 分 布 。 当 从 一 个 


分 布 里 采样 困难 或 者 它 的 样本 质量 不 高 时 ， 我 们 就 可 以 退 而 求 其 次 ， 从 重要 性 分 布 里 采样 
(Bishop, 2006)。 在 计算 边际 似 然 时 ， 我 们 首先 引入 重要 性 采样 分 布 gjs(9)， 从 而 得 到 : 


p(y|M) = | p(ylð, M) x p(0IM)d0 = 


| voo, m) x pom x EE do = 
0,M 0;,|M 
E — | ) y a (0)d8 = 
p(y|0, M) x p(0|M) 
了 os(o) gis (0) (31) 
因此 ， 边 际 似 然 可 由 下 式 得 到 : 
POIM) = yy, PO Mirren gg,s(0) (32) 


gis (0) 


通过 从 重要 性 分 布 里 不 断 采 样 ， 带 入 到 贝 叶 斯 公式 里 计算 ， 再 将 不 同样 本 的 结果 求 和 


即 可 得 到 边际 似 然 。 在 重要 性 采样 分 布 里 ， 重 要 性 分 布 的 选择 对 结果 影响 极 大 。 为 了 保证 
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计算 边 


sampling)(Gelfand & Dey, 1994)。 相 对 的 ，RIS 的 采样 
利用 MCMC 采样 得 到 参数 后 验 的 样本 来 计算 i 
性 采样 被 称 为 调和 和 平均 估 


际 似 然 的 倒数 元 时 ， 此 时 的 习 


可 以 是 多 维 


结果 方差 较 大 ， 使 和 
提高 调和 平均 估计 器 性 


高 斯 分 布 。RIS its 


很 多 应 用 。 


桥 采 样 是 对 重 
样本 。 相 较 于 计算 更 为 简单 的 习 
F 且 更 适合 于 分 层 模型 。 桥 采样 
以 此 减 小 计算 边 
的 缺点 在 于 ， 其 
AW, FART IL Gronau et al. (2017). Gronau 5 


使 用 JAGS 和 Stan 拟 合 的 模型 


eB), H 
议 分 布 的 桥 分 布 (Bridge distribution), 


(Meng & Wong, 1996)。 桥 采样 


这 增 


bridgesampling 简化 了 计 


寻 它 鲜 见 于 实际 和 
能 的 常见 方法 有 如 下 几 种 。 
et al., 2018)。 此 法 需要 RIS 乘 上 一 个 有 着 较 薄 尾部 的 函数 F(6)， 昌 


Tio 


OT 


第 二 是 将 MCMC 样本 替换 为 均匀 分 


(Steingroever et al., 2016; Vandekerckhove et al., 2015), AEA 


要 性 采样 的 改善 和 


公式 为 : 


M) AY 


Ea 


个 较 厚 尾部 的 分 布 。 此 外 ， 当 使 用 重要 性 采样 


EE 要 性 采样 也 被 称 作 RIS(Reverse importance 


分 布 更 需 


边际 似 然 外 


要 


MESE: 
E EE VER Pt 


Be 


薄 尾 部 的 分 布 。 
， 此 时 的 重要 


计 器 (Harmonic mean estimator)。 调 和 平均 器 易于 


第 


f@) 
p(y|0i, M) x p(0;|M) 


提升 ， 与 重 


eam rus 


要 性 采样 ， 


的 时 间 和 资 


y? 


yp SX Æ ed 


为 便于 


SERRE, BERR 
WORREROT TARDD, JOSE 
的 特点 在 于 ， 通 过 引入 一 


斯 分 布 与 MCMC ff 


计 


一 ， 使 用 加 权重 要 
f f@do=1, K 


计算 ， 


本 的 混合 


算 ， 但 是 计算 


性 采样 (Acerbi 


此 f(9) 


(33) 


分 布 
在 心理 学 有 着 


也 利用 


了 MCMC 的 


十 果 的 


个 连接 目标 分 布 和 提 


际 似 然 的 方差 并 提高 计算 的 精度 


5.4 不 同方 法 计算 边际 似 然 的 总 结 


计算 边际 似 然 的 方法 种 类 


的 方法 ， 但 它 的 误差 也 最 大 。 此 外 ， 
] BIC 会 更 倾向 于 选择 更 简 身 
拟 合 的 模型 时 使 有 


致 。 


当 使 用 最 大 化 后 验 概率 法 拟 合 模型 


的 模型 。 
H BIC 是 不 恰当 的 。 


繁多 ， 选 择 何 种 方法 依赖 于 


LAE IS SH 
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因为 BIC 是 无 先 验 信 ， 
Evans (2019) 认 为 ， 当 研究 者 使 | 
计算 边际 似 然 的 先 验 分 布 应 与 拟 合 模型 


JD, duGÉdy 


情 -Ed, 


计算 较为 复杂 ， 需 要 反复 迭代 ] 
等 人 开发 的 RE 
可 以 使 用 该 包 来 计算 边际 似 


HAR o 


恩 的 边际 似 然 的 近似 ， 


直至 结果 稳定 ， 


田 
EE 


斯 近似 是 更 简便 


的 方法 。 


有 信息 


的 先 验 分 布 
的 先 验 保持 一 


如 果 使 用 


MCMC XIF, HAASE RBI, BEER MEMME KDE WEA Sik, 
因为 它们 的 计算 量 更 小 。 若 模型 是 分 层 模型 ， 此 时 拉 普 拉 斯 近似 的 海 森 矩 阵 的 行列 式 不 易 
计算 ， 再 加 之 重要 性 采样 又 面临 着 采样 分 布 选择 的 困难 ， 这 使 得 桥 采 样 是 更 为 合理 的 选择 。 

当 研 究 者 比较 两 个 模型 时 ， 可 以 计算 两 个 模型 的 边际 似 然 的 比值 ， 结 果 即 为 贝 叶 斯 因 
"f (Bayes factor) (Kass & Raftery, 1995)。 贝 叶 斯 因子 的 特性 在 于 能 够 为 零 假 设 提供 证 据 ， 
此 它 在 当前 的 心理 学 研究 里 有 着 许多 应 用 。 关 于 贝 叶 斯 因子 在 数据 分 析 的 使 用 ， 以 及 其 分 
析 结 果 的 解读 ， 可 见 胡 传 鹏 et al. (2018)。 此 外 ，BIC 作为 边际 似 然 的 近似 ， 也 可 以 被 用 于 
计算 贝 叶 斯 因子 和 后 验 模 型 概率 (Wagenmakers, 2007)。 其 计算 方法 为 ， 将 两 个 模型 的 BIC 
之 差 乘 以 -0.5， 然 后 通过 指数 函数 可 以 将 其 转化 为 贝 叶 斯 因子 。 

值得 注意 的 是 ， 与 常见 的 数据 分 析 不 同 ， 认 知 建 模 里 贝 叶 斯 因子 对 比 的 两 个 模型 可 以 
是 任意 两 个 模型 ， 只 要 它们 建 模 的 数据 相同 即 可 。 而 Ttest 和 ANOVA 里 对 比 的 两 个 模型 则 
必须 是 备 择 假设 和 零 假设 。 

在 本 文 的 案例 里 ，BIC 和 拉 普 拉 斯 近似 的 边际 似 然 均 基 于 最 大 化 后 验 概率 法 的 结果 ， 

我 们 可 以 利用 两 者 的 结果 计算 每 个 被 试 的 贝 叶 斯 因子 。 相 比 之 下 桥 采 样 方法 适用 于 分 层 贝 
叶 斯 估计 ， 可 以 直接 计算 组 层面 的 边际 似 然 值 ， 进 而 可 以 获得 组 层面 的 贝 叶 斯 因子 (Group 
bayes factor, GBF). 
图 7 比较 了 基于 BIC、 拉 普 拉 斯 近似 和 桥 采 样 方法 计算 组 层面 贝 叶 斯 因子 的 结果 。 需 
要 注意 的 是 ， 为 了 方便 比较 ， 我 们 通过 求 和 所 有 被 试 在 个 体 层 面 的 贝 叶 斯 因子 (基于 BIC 和 
拉 普 拉 斯 近似 方法 ) 来 获得 组 层面 的 贝 叶 斯 因子 。 结 果 发 现 ， 三 种 方法 下 的 组 贝 叶 斯 因子 均 
支持 真实 模型 ， 即 模型 一 为 最 优 模型 。 然 而 ， 它 们 的 具体 数值 差异 却 极 大 。BIC 版 的 对 数 
组 贝 叶 斯 因子 为 12.59， 桥 采样 版 的 对 数组 贝 叶 斯 因子 为 39.92， 而 拉 普 拉 斯 近似 版 的 对 数 
组 贝 叶 斯 因子 值 为 50.63。 数 值 的 差异 不 仅 是 因为 不 同 指标 近似 的 精度 不 同 ， 同 时 也 受到 模 
型 拟 合 方法 差异 的 影响 。 
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Bridge-Sampling 


E 
E] 
o 
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= -200 
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x 
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= 
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o 
md 
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BIC Laplace 
图 7. 不 同 组 边际 似 然 近 似 指标 对 模型 一 和 模型 二 的 评估 。 所 有 指标 均 被 转换 为 对 数 边际 似 然 ， 其 值 越 大 
表示 模型 拟 合 的 越 好 。 
6 总结 与 展望 


计算 模型 在 实验 心理 学 的 研究 在 最 近 十 余年 愈 发 的 广泛 ， 而 模型 比较 是 认 知 建 模 中 关 


键 的 一 环 ， 不 恰当 地 进行 模型 比较 可 能 会 让 研究 者 得 出 错误 的 
型 比较 指标 对 基于 计算 模型 的 研究 来 说 至 关 重 要 。 本 文 梳理 、 
和 新 兴 的 模型 选择 指标 ， 对 最 常见 的 两 类 指标 : 基于 交叉 验证 
标 进行 了 对 比 ， 建 议 了 不 同 指标 的 使 用 条 件 。 并 结合 一 个 简单 
方法 。 


结论 。 因 此 ， 合 理 地 使 用 模 
总 结 了 在 认 知 建 模 领域 常见 
的 指标 和 基于 边际 似 然 的 指 
的 案例 ， 提 供 了 具体 的 计算 


值得 一 提 的 是 ， 过 往 许多 使 用 计算 模型 的 研究 均 采 用 较为 简单 的 模型 比较 指标 ， 如 
AIC 和 BIC 等 。 这 些 指标 尽管 有 着 许多 优点 ， 但 却 忽 视 了 影响 模型 复杂 度 等 诸多 重要 因素 。 
而 近年 来 被 推广 的 指标 ， 诸 如 WAIC， 近 似 /采样 方法 计算 的 边际 似 然 等 较为 复杂 的 指标 对 
模型 复杂 度 的 考量 要 更 加 的 完善 ， 由 此 基于 这 些 指标 的 模型 比较 的 结果 也 更 加 稳定 可 靠 。 
随 着 越 来 越 多 成 熟 旦 容易 操作 的 工具 的 发 展 ， 这 些 指 标 将 更 多 地 应 用 在 研究 里 。 

除 此 之 外 ， 早 期 认 知 建 模 的 研究 大 都 只 注重 使 用 相对 指标 来 评估 模型 的 优 劣 ， 忽 视 了 


模型 拟 合 的 绝对 好 坏 。 这 导致 了 一 种 困境 : 即便 我 们 选择 出 了 


一 个 最 优 模型 ， 该 模型 却 并 


不 一 定 对 样本 数据 有 完善 的 描述 。 因 此 ， 在 进行 模型 比较 时 ， 我 们 首先 需要 通过 相对 指标 


选择 最 优 模型 ， 再 通过 拟 合 优 度 指标 评估 模型 对 当前 数据 拟 合 
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的 绝对 优良 度 。 只 有 当 模 型 


在 相对 指标 上 胜出 其 他 候选 模型 ， 


昌 在 数据 上 有 着 良好 的 绝对 拟 合 优 度 时 ， 我 们 才能 将 它 


当 作 最 优 模型 。 随 着 后 验 预 测 检查 等 方法 的 普及 ， 今 后 的 研究 应 将 更 多 地 结合 相对 指标 和 


绝对 指标 来 进行 模型 记 


估 及 模型 验证 。 


6.1 边际 似 然 和 交叉 验证 的 争论 


明了 
及 如 


理论 


本 文 着 重 介绍 了 边际 似 然 与 交叉 验证 这 两 类 最 常见 的 模型 比较 方法 。 尽 管 二 者 基 


于 的 


大 相 径 庭 ， 但 是 也 有 研究 表明 二 者 间 存 在 不 少 联系 。 例 如 ，Fong and Holmes (2020) 证 


边际 似 然 在 一 些 特定 情况 下 与 交叉 验证 等 价 。 但 是 这 二 者 中 哪 一 个 更 适合 实际 研究 以 


何 选择 它们 仍 有 许多 在 争议 。 


建 模 中 通常 有 M-Closed 和 M-Open 这 两 种 场景 。M-Closed 场景 假设 在 候选 模型 中 存在 


一 个 “真实 "模型 ， 能 完美 地 描述 数据 的 生成 过 程 。M-Open 场景 假设 所 有 的 候选 模型 都 
完美 地 描述 数据 的 生成 过 程 。 


模型 


et al. 


“Hc” A. Al 


在 M-Open 场景 下 ， 模 型 选择 的 目标 是 找到 一 个 在 所 有 


不 能 
候选 


中 表现 最 好 的 模型 ， 而 不 是 寻找 真实 模型 (Burnham & Anderson, 2004; Gelman, Hwang, 


, 2013)。 


假如 在 M-Closed 场景 下 且 数 据 数量 接近 无 限 ， 此 时 边际 似 然 能 选择 出 “真实 ”模型 。 


在 M-Open 场景 下 ， 交 叉 验 证 则 更 适合 ， 它 能 找 出 KL 散 度 距离 “真实 ”模型 最 小 的 模型 
然 在 M-Closed 环境 下 ， 交 叉 验 证 也 能 找到 与 数据 KL 散 度 最 小 的 模型 ， 但 它 却 无 法 
究 表 明 边 际 似 然 和 交叉 验证 两 者 的 优势 是 无 法 被 结合 的 (Vrieze, 2012; 


Yang, 2005). 


边际 似 然 的 支持 者 对 交叉 验证 的 反驳 主要 集中 在 交叉 验证 无 法 找 出 “真实 ”模型 这 一 


点 上 。 例 如 ，Gronau and Wagenmakers (2019) 在 实验 中 使 用 Beta-Bernoulli 模型 生成 模 


据 ， 


Pesudo 贝 叶 斯 


s 


并 使 用 不 同 复杂 度 的 模 


而 
o m 
找 出 


拟 数 


型 拟 合 模拟 的 数据 ， 最 后 用 Loo-CV 和 基于 Loo-CV 计算 的 


的 增 


Gronua 和 Wagenmakers 认为 ， 当 研究 者 使 用 Loo-CV 时 应 该 格外 说 


长 而 呈 倒 uM. IA 


因子 对 各 个 模型 进行 评估 和 对 比 。 分 析 结 果 发 现 ， 除 Loo-CV 会 选择 复 


更 高 的 模型 而 非 产 生 数 据 的 真实 模型 的 固有 缺陷 外 ，Loo-CV 对 真实 模型 的 支持 会 随 着 数据 


WHEN, Loo-CV 对 真实 模型 的 支持 会 先 下 降 再 增长 。 
真 。 


Ve 


ZR BE 


因此 


Vehtari et al. (2019) F Gronau and Wagenmakers (2019) 的 观点 ， 认 为 M-Closed 设置 只 


是 为 了 简化 建 模 问题 ， 实 际 应 用 中 很 少 出 现 M-Closed 环境 。 并 且 Vehtari et al. (2019) 


Gronau 和 Wagenmakers 错误 地 使 用 Loo-CV 去 计算 Pesudo 贝 叶 斯 因子 。 相 反 ， 如 果 使 


Hi 


登 的 方法 ， 将 各 个 模型 的 Loo-CV 作为 输入 值 ， 所 计算 的 模型 权重 可 以 很 好 地 在 M-Closed 
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环境 下 选择 


很 多 情况 其 实际 应 


使 用 了 合适 的 先 验 分 布 并 有 具 
其 他 模型 更 强 (Lotfi et al., 2022). 
此 外 ， 在 贝 叶 


极 大 的 影响 。 模 型 的 先 验 分 布 愈 是 无 信息 ， 边 际 似 然 的 模型 
而 与 边际 似 然 相 比 ，Loo-CV 则 不 会 


Ly 
uy 


为 一 方面 ， 


上 最 优 模型 。 


交叉 验证 的 支持 者 们 则 认为 边际 似 然 尽 管 扣 


j 却 不 尽 如 人 意 。 
而 是 在 给 定 了 先 验 分 布 和 模型 的 情况 下 ， 稀 于 


原因 在 于 , 


斯 推断 中 ， 


边缘 似 然 并 不 是 对 模 
量 模型 对 当前 数据 解释 的 能 力 。 即 使 一 个 模型 
有 更 好 的 边际 似 然 ， 其 在 样本 外 数据 上 的 泛 化 能 力也 不 一 定 比 


有 很 多 优良 


E 
AE 


的 理论 特性 ， 但 


型 泛 化 能 力 的 衡量 ， 


选择 合适 的 先 验 分 布 是 极为 困难 的 。 例 如 ，Gelman, Carlin, et 
al. (2013) 认 为 ， 在 边际 似 然 的 实际 应 用 中 ， 不 合适 的 有 信息 


Kennedy et al. (2019) 通 过 对 气 


模 ， 测 试 了 不 同 先 验 分 布 对 贝 叶 斯 因 


大， 


言 息 的 先 验 分 布 ， 


受到 这 


电 的 先 验 分 布 
+ 比较 愈 倾向 


会 对 边际 似 然 造 成 
于 更 简单 的 模型 。 


文 方面 的 影响 (Gelman, Carlin, et al., 2013)。 例 如 ， 


CDRA HUE ES (Balloon Analog Risk Task, BART) 实 验 数据 建 


Tasa 


贝 叶 斯 因 


而 拉 普 拉 


的 贝 


叶 斯 


因子 也 要 远 小 了 


6.2 模型 选择 指标 的 使 用 建议 


NA 


首先 ， 


适 


当 我 们 进行 模型 


4 比较 时 应 : 
适用 于 与 建 模 数 据 一 致 的 场景 。 


Ho NRHI, 
会 逐渐 偏向 于 简单 的 模型 。 在 本 文 的 案例 中 也 是 如 此 ， 
斯 近似 和 桥 采 档 
六 其 他 两 者 。 


随 着 先 验 分 


当 注 意 每 个 指标 所 适 


j 的 情况 。 各 


选项 数据 建 模 的 强化 学 习 模 型 的 AIC 进行 比较 (Fontanesi et al., 2019). 


BU 


M, 


型 的 方法 。 例 如 ，Steingroever et al. (2014) z BLZE 


分 不 同 模型 ， 


模型 ， 


都 会 随 着 样本 量 


例如 ，AIC 和 BIC 作为 最 常见 的 指标 ， 适 用 于 参数 估 
然而 如 何在 AIC、 和 BIC 之 间 进 行 选择 仍 有 争议 。 

罚 项 惩罚 力度 更 大 ， 导 致 它们 通常 会 选择 简单 的 模型 。 因 此 ， 研 究 者 可 以 根 
据 自 己 研 究 假设 的 效应 量 和 统计 功效 来 选择 这 些 指标 。 


BIC Hj 


而 后 验 预测 检查 则 能 很 好 地 选择 出 最 优 模型 。 


ipe: 


Z. FFA AIC 的 


认 样 


本 外 预测 


EIS 


大 而 下 降 。 


而 AIC 的 二 


类 错误 会 随 着 相 


二 类 错误 比 BIC 要 小 (Dziak et al., 2020). & 


模型 比较 的 相对 指标 无 法 区 分 不 同 的 模型 时 ， 后 验 预测 检 


荷 华 赌博 实验 里 ， 


布 无 信息 程度 的 增 


因为 BIC 假设 了 无 
# 均 使 用 了 实际 拟 合 模型 的 先 验 分 布 ， 所 以 BIC 


个 模型 比较 指标 仅 


例如 ， 基 于 反应 时 和 选项 数据 的 DDM 的 AIC 无 法 和 基于 


测 也 可 以 作为 选择 
难 区 


BIC 等 指标 很 


计 方 法 为 点 估 


本 量 下 降 ， 
在 同等 样 


计 的 极 大 似 然 法 的 


例如 ，BIC 的 一 类 错误 和 二 类 错误 


但 


类 错误 并 不 


本 条 件 下 ，AIC 能 确 


能 力 更 好 的 模型 为 最 优 模型 ， 但 同时 也 冒 着 一 类 
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错误 更 大 的 风险 。 而 BIC R 


然 有 着 确认 真实 模 


H 
H 


使 


Collins, 2019)。 例 如 ，Collins and Frank (2012) 使 ) 
合 该 数据 。 他 们 发 现 ， 当 使 用 BIC 
就 是 说 ，BIC 往往 过 于 惩罚 复杂 的 模型 ， 导 致 无 法 复 现 
而 AIC 却 可 以 复 现 出 更 为 复杂 的 真实 模型 (Collins & Frank, 2018). 
[ 报 AIC 和 BIC。 如 果 二 者 的 结果 一 致 ， 则 模型 
果 二 者 相悖 ， 则 可 根据 不 同 的 原则 进行 分 门 别 类 

除 此 之 外 ， 不 同 参数 估计 的 方法 也 会 限制 模型 


和 简单 模型 拟 


单 模型 ， 也 


模型 ， 


研究 者 推 


d£ RINT 


型 的 能 力 ， 但 是 其 


用 模型 复 现 (Model recovery) 的 方法 来 决定 究竟 使 月 


三 | 


芷 为 模型 


4 比较 方法 的 使 月 


估计 的 模型 而 言 ， 我 们 可 以 利 


标 。 


E 


是 无 信息 
而 当先 验 分 


WAIC; 而 当先 验 分 布 是 强 信息 
我 们 对 模型 的 先 验 有 足够 的 认识 并 设置 有 


的 或 者 弱 信 
等 程度 的 信息 


的 时 ， 


Pun 


J MCMC 样本 计算 i 


程 


A ee 


= 15 } 


j 无 信息 先 验 ， 或 设置 有 信息 的 先 验 但 


时 ， 
的 


WAIC，DIC 和 Loo-CV 是 更 恰当 的 指标 。 


6.3 模型 比较 的 新 发 展 


传统 的 模型 比较 通常 要 


型 的 不 确定 


2004)。 


时 发 现 ， 使 


数 分 析 的 结果 更 加 准确 。 


际 似 然 计算 


代 后 验 模型 概率 。 此 外 


性 。 
增强 基于 模型 所 做 出 推 
AU, Boehm et al. (2023) 在 使 用 模型 平均 探究 速度 - 准 


f 


FA Hed 


选择 出 


一 个 最 优 模型 ， 


] 贝 叶 


斯 模型 平均 能 
但 值得 


HT 


减少 模型 过 


困难 的 情况 下 ， 


难以 计算 


+ 
, H8 


型 概率 (Yao et al., 2018). 
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EARI, XU 
并 不 确定 其 


后 验 模 型 概率 。 


ES JI PSIS-Loo-CV 的 模型 权重 


边际 似 然 或 者 Loo-CV 55 8 fit 
而 如 果 使 用 了 点 估计 的 最 大 化 后 验 概率 法 ， 我 们 也 可 以 使 用 拉 普 拉 斯 近 
然 。 在 有 信息 的 先 验 分 布 时 ， 边 际 似 然 表 现 会 优 于 WAIC 等 对 交叉 验证 
(2019) 使 用 LBA 模型 对 比 了 不 同 信息 


度 的 先 验 分 布 对 模型 比较 的 影响 ， 发 


Y EL RZ 


二 类 错误 ， 即 选 出 一 个 表现 较 差 的 模型 的 概率 也 更 高 。 
何 种 指标 也 是 一 和 
j 更 复杂 的 模型 模拟 数据 ， 并 ) 
LEER, Were 


选择 (Wilson & 


j 复 杂 模 型 


吉 果 会 文 持 简 


出 模拟 数据 背后 的 真实 
最 后 ， 
吉 果 也 更 为 可 靠 。 


的 讨论 (Farrell & Lewandowsky, 2018)。 


也 有 不 少 
如 


in 


昌 。 对 于 使 用 贝 叶 


斯 参数 


确 的 近似 指 


似 计算 i 
的 近似 。Evans 
现 当 先 验 分 布 


边际 似 


边际 似 然 倾向 于 过 度 成 罚 复 杂 模 型 ， 


导致 结果 1 


边际 似 然 的 结果 更 接近 于 最 优选 择 ， 并 且 要 
时 ， 边 际 似 然 又 会 倾向 于 选择 复杂 度 过 高 的 模型 。 


局 离 最 优选 择 ; 
优 于 
因此 ， 


Ei 


际 似 然 可 能 是 更 好 的 选择 ， 
否 恰当 时 ， 对 先 验 不 敏感 的 


AE 


但 单一 的 模型 既 可 和 
H 贝 叶 斯 模型 平均 的 思路 ， 即 同时 考虑 多 个 模 
断 的 鲁 棒 性 (Clyde et al., 2011; Hinne et al., 2020; Merlise & Edward, 
性 权衡 对 DDM 参数 的 影响 
拟 合 对 DDM 参数 估计 的 影响 ， 使 得 对 DDM 参 
注意 的 是 ， 贝 叶 斯 模型 平均 受 限 于 边际 似 然 的 计算 ， 在 边 


一 种 可 行 的 方法 是 使 / 


确 


EE 过 拟 合 
型 影 


j 赤 池 权 重 来 蔡 
也 可 以 用 于 蔡 代 后 验 模 


， 也 忽视 模 
啊 的 权重 ， 以 


使 用 模型 比较 指标 的 常见 方式 是 比较 指标 值 在 所 有 被 试 上 的 和 或 者 平均 值 的 。 然 而 这 


种 做 法 忽视 被 试 之 间 的 差异 ， 也 忽视 了 极端 值 对 模型 比较 的 产生 的 可 能 影响 。 源 于 


DCM(Dynamic causal modelling)! 


selection, RE-BMS)(Stephan et al., 2009) 8E 


泛 的 应 用 。RE-BMS F| 


exceedence probability, PXP)， 代 表 在 当前 样本 数据 下 ， 某 


模型 比较 的 贝 叶 斯 模型 选择 (Random effect Bayseian model 


了 效 地 减少 极端 值 的 影响 ， 在 认 知 建 模 中 也 取得 广 


贝 叶 斯 分 层 模型 来 考虑 被 试 的 差异 ， 使 用 了 多 项 式 分 布 和 狄 利克 
雷 分 布 以 避免 数据 点 非 对 称 分 布 形态 的 影响 。 此 外 ，RE-BMS 引入 超出 概率 (Protected 


一 模型 的 边际 似 然 大 于 等 于 其 余 


模型 并 可 以 作为 生产 当前 数据 的 “真实 模型 ”的 概率 ， 即 PXP = p(rwm,_, = Tm,|y)。PXP 
大 于 0.95 就 可 以 像 传统 的 假设 检验 一 样 认为 该 模型 要 显著 地 优 于 其 余 模 型 (Iglesias et al., 
2013)。 值 得 注意 的 是 ，Matlab 中 的 工具 包 SPM, VBA 和 R 中 的 bmsR 包 均 可 实现 PXP 的 
计算 (Daunizeau et al., 2014)， 使 其 在 认 知 建 模 得 到 广泛 应 | 


等 信息 准则 指标 作为 RE-BMS 的 输入 时 ， 需 将 这 些 指 标 除 以 -2 来 保证 结果 的 正确 。 
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